最近的深度学习文本到语音(TTS)系统通过产生接近人类平价的语音来实现令人印象深刻的表现。但是,他们遭受了训练稳定性问题的困扰以及中间声学代表与输入文本序列的不正确对齐。在这项工作中,我们介绍了tacotron2的常规版本,旨在减轻培训问题并同时产生单调对齐。我们的方法以额外的术语增强了香草tacotron2的目标函数,该术语惩罚了位置敏感的注意机制中的非单调比对。通过正确调整此正规化术语,我们表明损失曲线变得更加顺畅,同时恢复也会在未见的示例中始终产生单调的对准,即使在早期阶段(占时代总数的13%),而其训练过程中,则完全融合的Tacotron2无法做到。此外,我们提出的正则化方法没有额外的计算开销,同时减少了常见的TTS错误,并根据从50个评估者收集的主观平均意见分数(MOS)来减少了较高的言语自然性。
translated by 谷歌翻译